智能论文笔记

Goal-oriented Autonomous Driving

Yihan Hu , Jiazhi Yang , Li Chen , Keyu Li , Chonghao Sima , Xizhou Zhu , Siqi Chai , Senyao Du , Tianwei Lin , Wenhai Wang

分类：计算机视觉 | 机器人

2022-12-20

Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction and planning. As sensors and hardware get improved, there is trending popularity to devise a system that can perform a wide diversity of tasks to fulfill higher-level intelligence. Contemporary approaches resort to either deploying standalone models for individual tasks, or designing a multi-task paradigm with separate heads. These might suffer from accumulative error or negative transfer effect. Instead, we argue that a favorable algorithm framework should be devised and optimized in pursuit of the ultimate goal, i.e. planning of the self-driving-car. Oriented at this goal, we revisit the key components within perception and prediction. We analyze each module and prioritize the tasks hierarchically, such that all these tasks contribute to planning (the goal). To this end, we introduce Unified Autonomous Driving (UniAD), the first comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query design to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven to surpass previous state-of-the-arts by a large margin in all aspects. The full suite of codebase and models would be available to facilitate future research in the community.

translated by 谷歌翻译

Knee arthritis severity measurement using deep learning: a publicly available algorithm with a multi-institutional validation showing radiologist-level performance

Hanxue Gu , Keyu Li , Roy J. Colglazier , Jichen Yang , Michael Lebhar , Jonathan O'Donnell , William A. Jiranek , Richard C. Mather , Rob J. French , Nicholas Said

分类：计算机视觉 | 机器学习

2022-03-16

膝关节X射线上的膝盖骨关节炎（KOA）的评估是使用总膝关节置换术的中心标准。但是，该评估遭受了不精确的标准，并且读取器间的可变性非常高。对KOA严重性的算法，自动评估可以通过提高其使用的适当性来改善膝盖替代程序的总体结果。我们提出了一种基于深度学习的新型五步算法，以自动从X光片后验（PA）视图对KOA进行评级：（1）图像预处理（2）使用Yolo V3-tiny模型，图像在图像中定位膝关节，（3）使用基于卷积神经网络的分类器对骨关节炎的严重程度进行初步评估，（4）关节分割和关节空间狭窄（JSN）的计算（JSN）和（5），JSN和最初的结合评估确定最终的凯尔格伦法律（KL）得分。此外，通过显示用于进行评估的分割面具，我们的算法与典型的“黑匣子”深度学习分类器相比表现出更高的透明度。我们使用我们机构的两个公共数据集和一个数据集进行了全面的评估，并表明我们的算法达到了最先进的性能。此外，我们还从机构中的多个放射科医生那里收集了评分，并表明我们的算法在放射科医生级别进行。该软件已在https://github.com/maciejmazurowowski/osteoarthitis-classification上公开提供。

translated by 谷歌翻译

Learning Temporal Consistency for Source-Free Video Domain Adaptation

Yuecong Xu , Jianfei Yang , Haozhi Cao , Keyu Wu , Wu Min , Zhenghua Chen

分类：计算机视觉

2022-03-09

基于视频的无监督域适应性（VUDA）方法改善了视频模型的鲁棒性，从而使它们能够应用于不同环境的动作识别任务。但是，这些方法需要在适应过程中不断访问源数据。然而，在许多现实世界中，源视频域中的主题和场景应该与目标视频域中的主题和场景无关。随着对数据隐私的越来越重视，需要源数据访问的方法会引起严重的隐私问题。因此，为应对这种关注，更实用的域适应情景被提出为基于无源的视频域的适应性（SFVDA）。尽管图像数据上有一些无源域适应性（SFDA）的方法，但由于视频的多模式性质，这些方法在SFVDA中产生了退化性能，并且存在其他时间特征。在本文中，我们提出了一个新颖的专注时间一致网络（ATCON）来通过学习时间一致性来解决SFVDA，并由两个新颖的一致性目标保证，即具有跨局部时间特征执行的特征一致性和源预测一致性。 ATCON通过基于预测置信度参与本地时间特征，进一步构建有效的总体特征。经验结果表明，ATCON在各种跨域动作识别基准中的最先进表现。

translated by 谷歌翻译

FastSGD: A Fast Compressed SGD Framework for Distributed Machine Learning

Keyu Yang , Lu Chen , Zhihao Zeng , Yunjun Gao

分类：机器学习

2021-12-08

随着大数据的快速增长，分布式机器学习（ML）已广泛应用于培训大型模型。随机梯度下降（SGD）可以说是ML的Workhorse算法。 SGD培训的分布式ML型号涉及大量的梯度通信，这限制了分布式ML的可扩展性。因此，压缩梯度以减少通信是重要的。在本文中，我们提出了FastSGD，一种用于分布式ML的快速压缩的SGD框架。为了以低成本实现高压缩比，FastSGD表示梯度作为键值对，并在线性时间复杂度压缩梯度键和值。对于梯度值压缩，FASTSGD首先使用互焦数映射器将原始值转换为互焦值，然后，它利用对数量化来进一步将互焦值减少到小整数。最后，FastSGD通过给定阈值过滤减少梯度整数。对于渐变键压缩，FastSGD提供了一种自适应细粒度的Δ编码方法，用于存储具有更少位的渐变键。实际ML模型和数据集的广泛实验证明，与最先进的方法相比，FastSGD实现了高达4个级别的压缩比，并加速了高达8倍的收敛时间。

translated by 谷歌翻译

An Efficient Source Model Selection Framework in Model Databases

Minjun Zhao , Lu Chen , Keyu Yang , Yuntao Du , Yunjun Gao

分类：机器学习

2021-10-13

随着大数据的爆炸性增加，培训机器学习（ML）模型成为计算密集型工作量，需要几天甚至几周。因此，重用已经训练的模型受到了受关注的，称为转移学习。转移学习避免通过将知识从源任务转移到目标任务来避免从头开始培训新模型。现有的传输学习方法主要专注于如何通过特定源模型提高目标任务的性能，并假设给出了源模型。虽然有许多源模型可用，但数据科学家难以手动选择目标任务的最佳源模型。因此，如何在模型数据库中有效地选择合适的源模型进行模型重用是一个有趣但未解决的问题。在本文中，我们提出了SMS，有效，高效，灵活的源模型选择框架。即使源数据集具有明显不同的数据标签，SMS也是有效的，并且灵活地支持具有任何类型的结构的源模型，并且有效地避免任何培训过程。对于每个源模型，SMS首先将目标数据集中的样本加速到软标签中，通过直接将该模型直接应用于目标数据集，然后使用高斯分布适合软标签的集群，最后测量源模型使用的显着能力高斯混合的公制。此外，我们提出了一种改进的SMS（I-SMS），其降低了源模型的输出数量。 I-SMS可以显着降低选择时间，同时保留SMS的选择性能。关于一系列实用模型重用工作负载的广泛实验证明了SMS的有效性和效率。

translated by 谷歌翻译

Boosting Sensitivity of Large-scale Online Experimentation via Dropout Buyer Imputation

Sumin Shen , Huiying Mao , Zezhong Zhang , Zili Chen , Keyu Nie , Xinwei Deng

分类：机器学习

2022-09-09

In online experimentation, appropriate metrics (e.g., purchase) provide strong evidence to support hypotheses and enhance the decision-making process. However, incomplete metrics are frequently occurred in the online experimentation, making the available data to be much fewer than the planned online experiments (e.g., A/B testing). In this work, we introduce the concept of dropout buyers and categorize users with incomplete metric values into two groups: visitors and dropout buyers. For the analysis of incomplete metrics, we propose a clustering-based imputation method using $k$-nearest neighbors. Our proposed imputation method considers both the experiment-specific features and users' activities along their shopping paths, allowing different imputation values for different users. To facilitate efficient imputation of large-scale data sets in online experimentation, the proposed method uses a combination of stratification and clustering. The performance of the proposed method is compared to several conventional methods in both simulation studies and a real online experiment at eBay.

translated by 谷歌翻译

Vision-Language Matching for Text-to-Image Synthesis via Generative Adversarial Networks

Qingrong Cheng , Keyu Wen , Xiaodong Gu

分类：计算机视觉

2022-08-20

文本对图像综合旨在从特定文本描述中生成光真逼真和语义一致的图像。与相应的图像和文本描述相比，由现成模型合成的图像通常包含有限的组件，从而降低了图像质量和文本 - 视觉一致性。为了解决这个问题，我们提出了一种新颖的视觉语言匹配策略，用于文本对图像综合，名为Vlmgan*，该策略介绍了一种双重视觉语言匹配机制，以增强图像质量和语义一致性。双视性匹配机制考虑了生成的图像与相应的文本描述之间的文本 - 视觉匹配，以及综合图像和真实图像之间的视觉视觉视觉一致约束。给定特定的文本描述，vlmgan*首先将其编码为文本特征，然后将它们馈送到基于双视觉匹配的生成模型中，以合成光合逼真的和文本的语义一致图像。此外，文本对图像合成的流行评估指标是从简单图像生成中借用的，该图像生成主要评估合成图像的现实和多样性。因此，我们引入了一个名为Vision语言匹配分数（VLMS）的度量标准，以评估文本对图像合成的性能，该分数可以考虑综合图像和描述之间的图像质量和语义一致性。所提出的双重多层视觉匹配策略可以应用于其他文本对图像合成方法。我们在两个受欢迎的基线上实现了此策略，这些基线用$ {\ text {vlmgan} _ {+\ text {attngan}}} $和$ {\ text {vlmgan} _ {+\ text {+\ text {+\ {+\ text {+\ text {dfgan}}} $ 。两个广泛使用的数据集的实验结果表明，该模型比其他最先进的方法实现了重大改进。

translated by 谷歌翻译

See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval

Xiujun Shu , Wei Wen , Haoqian Wu , Keyu Chen , Yiran Song , Ruizhi Qiao , Bo Ren , Xiao Wang

分类：计算机视觉

2022-08-18

基于文本的人检索旨在根据文本描述找到查询人员。关键是学习视觉文本模式之间的常见潜在空间映射。为了实现这一目标，现有的作品采用细分来获得明确的跨模式对齐方式或利用注意力来探索显着对准。这些方法有两个缺点：1）标记交叉模式比对很耗时。 2）注意方法可以探索显着的跨模式对齐，但可能会忽略一些微妙而有价值的对。为了缓解这些问题，我们为基于文本的人检索引入了一个隐式视觉文本（IVT）框架。与以前的模型不同，IVT利用单个网络来学习两种模式的表示形式，这有助于视觉文本相互作用。为了探索细粒的对准，我们进一步提出了两个隐式语义比对范式：多级比对（MLA）和双向掩码建模（BMM）。 MLA模块在句子，短语和单词级别上探索了更精细的匹配，而BMM模块旨在挖掘视觉和文本模态之间的\ textbf {更多}语义对齐。进行了广泛的实验，以评估公共数据集中提出的IVT，即Cuhk-Pedes，RSTPREID和ICFG-PEDES。即使没有明确的身体部位对准，我们的方法仍然可以达到最先进的表现。代码可在以下网址获得：https：//github.com/tencentyouturesearch/personretrieval-ivt。

translated by 谷歌翻译

A Unified Two-Stage Group Semantics Propagation and Contrastive Learning Network for Co-Saliency Detection

Zhenshan Tan , Cheng Chen , Keyu Wen , Yuzhuo Qin , Xiaodong Gu

分类：计算机视觉

2022-08-13

联合检测（COSOD）旨在从多个图像发现重复的显着物体。两个主要挑战是组语义提取和噪声对象抑制。在本文中，我们提出了COSOD的统一两阶段的语义传播和对比度学习网络（主题网络）。主题网络可以分解为两个子结构，包括两个阶段的语义传播模块（TGSP），以应对第一个挑战和对比度学习模块（CLM），以应对第二个挑战。具体来说，对于TGSP，我们设计了一个图像到群体传播模块（IGP）来捕获组内相似特征的共识表示和小像素传播模块（GPP），以构建共识表示的相关性。对于CLM，随着阳性样品的设计，语义一致性得到了增强。通过设计负样品的设计，噪声对象被抑制。关于三个主要基准测试的实验结果表明，主题网络在各种评估指标方面都优于其他竞争对手。

translated by 谷歌翻译

Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation Learning and Retrieval

Keyu Wen , Zhenshan Tan , Qingrong Cheng , Cheng Chen , Xiaodong Gu

分类：计算机视觉 | 人工智能

2022-07-02

最近，跨模式的预训练任务一直是一个热点，因为它在各种下文研究中广泛应用，包括检索，字幕，问题答案等。然而，退出的方法采用单媒体预训练模型来探索进行跨模式检索的联合视觉表示，这很容易遭受计算爆炸的影响。此外，尽管常规的双流结构非常有效，但它们仍然缺乏重要的跨模式相互作用，导致性能低。在这些挑战的激励下，我们提出了一个对比的跨模式知识共享预训练（Cookie），以掌握联合文本图像表示。从结构上讲，Cookie由于可接受的时间消耗而采用了传统的双流结构。为了克服上述双流结构的固有缺陷，我们精心设计了两个有效的模块。具体而言，第一个模块是一个体重共享的变压器，它构建在视觉和文本编码器的头上，旨在将语义对齐文本和图像对齐。该设计使视觉和文本路径集中在相同的语义上。另一个是三个专门设计的对比学习，旨在分享不同模型之间的知识。共享的跨模式知识大大发展了单峰表示的研究，从而促进了单模式检索任务。对多模式匹配研究的广泛实验结果，包括跨模式检索，文本匹配和图像检索揭示了我们的计算效率和我们预训练模型的统计指标的上级。

translated by 谷歌翻译